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一 种 考虑 风力 作用 的 KNN 城市 AQI 预测 算法 
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摘 要 : 考虑 风力 对 城市 空气 质量 指数 (AQD) 的 重要 影响 ， 基 于 KNN 算法 提出 一 种 新 的 模型 对 城市 AQI 进行 预测 。 该 
模型 主要 依赖 于 数据 间 的 局 部 相似 性 和 依赖 性 ,再 将 风力 因素 对 城市 AQI 的 影响 进行 量化 并 加 入 到 KNN 预测 结果 中 ， 

得 到 最 终 预 测 结果 。 实 验 对 九 个 重点 城市 进行 AQI 预测 ， 结 果 表 明 ， 该 模型 相 较 传统 KNN 方法 预测 得 到 的 AQI 值 ， 
准确 率 大 幅度 提升 ， ee 
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K nearest neighbor urban forecasting algorithm considering wind factors 
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Abstract: Considering the important influence of wind on air quality index(AQD , this paper proposes a new model , which 
based on KNN algorithm to predict the urban AQI. The model mainly relies on the local similarity and dependence between 
data, and quantifies the impact of wind factors on urban AQI and adds it to the KNN forecast results to get the final forecast 
results. The experimental results of AQI in nine major cities Show that the proposed model has significantly improved the 
accuracy of AQI compared with the traditional KNN method. The model has guiding significance for the prediction of urban 
AQI. 
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序列 预测 方法 主要 有 SVM 和 神经 网 络 。2014 年 ， 席 超 等 人 中 
用 ARMA 模型 对 导航 卫星 钟 差 进行 预测 ， 与 多 项 式 模型 和 
一 质量 情况 与 人 们 的 工作 生活 有 极 大 的 关系 ， 空 气 中 的 “灰色 模型 相 比 ，ARMA 模型 预测 导航 卫星 钟 差 准 确 率 更 高 。 
污染 物 不 利于 人 体 健 康 , 易 导 致 呼吸 道 疾 病 。 空 气 污染 严重 时 ， 2017 年 , Zhang 等 人 四 使 用 ARMA 和 粒子 群 优化 的 核 极限 学 习 
肉眼 可 见 度 极 低 ， 易 发 生 道路 交通 事故 及 影响 航班 出 行 ， 严 导 机 (KELM ) 构建 预测 模型 , 对 电价 进行 预测 , 澳大利亚 和 西 班 
影响 人 们 的 日 常生 活 和 社会 经 济 发 展 。 牙 的 市 场 实 验 结果 表明 该 方法 能 有 效 预 测 电 价 。2016 年 ， 翟 静 

2016 年 12 月, 法律 法 规 网 (http:/www.lc123.net/xw/rd/2016- ”等 人 四 使 用 ARIMA 和 BP 神经 网 络 对 中 国 粮食 产量 进行 预测 ， 
12-08/607831.html) 指 出 ,我 国 78.4% 的 城市 空气 质量 不 达标 ， 部 结果 表明 预测 结果 较 准 确 。2017 年 ，Ruby-Figueroaa 等 人 器 使 
分 地 区 冬季 重度 及 以 上 污染 帆 频 发 。 有 效 的 城市 空气 质量 指数 ] ARIMA 模型 对 超 滤 果汁 六 小 时 的 渗透 通 量 进行 预测 ， 分 别 
预测 至 关 重 要 ， 人 们 可 以 根据 空气 质量 指数 预测 来 安排 出 行 计 ” 对 使 用 不 同 渗透 膜 的 佛手 柑 、 狂 猴 桃 和 石榴 汁 的 渗透 通 量 进行 
划 及 方式 ， 相 关 部 门 也 可 根据 空气 质量 指数 预测 在 污染 严重 时 实验， 结果 表明 预测 效果 理想 。2015 年 ， 刘 爱国 等 人 中 使 用 优 
提醒 人 们 。 故 高 准确 率 的 空气 质量 指数 预测 很 有 必要 。 化 核 函数 的 SVM 对 超 短 期 风电 功率 进行 预测 ， 该 方法 取得 较 
好 的 预测 结果 。2017 年 ，Direito 等 人 外 使 用 多 通道 高 维特 种 集 
和 多 类 支持 向 量 机 对 闻 病 患者 的 发 病 进行 预测 ， 该 方法 在 预测 

时 间 序 列 预 测 方法 主要 分 为 基于 模型 的 时 间 序 列 预 测 和 基 过程 中 定义 了 一 组 区 分 患者 发 病 前 和 发 病 后 的 特征 ， 实 验 结果 
于 人 工 智能 的 时 间 序 列 预测 两 类 。 基 于 模型 的 时 间 序 列 预测 方 表明 该 方法 对 患者 发 病 预测 有 效 。2017 年 ， 李 博 等 人 外 使 用 


法 主要 有 ARMA 模型 和 ARIMA 模型 中。 基于 人 工 智 能 的 时 间 ”” 气 预测 的 先行 指标 和 神经 网 络 的 适应 性 等 特点 ， 构 建 四 种 预测 
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1 ”时 间 序 列 预测 常用 方法 


收 稿 日 期 : 2017-12-07; 修 回 日 期 : 2018-01-25 ”基金 项 目 : 江西 省 自然 科学 基金 资助 项 目 (20161BAB212034) 

作者 简介 : 杨 丰 玉 〈1980-) ， 男 ， 江 西 九 江 人 ， 副 教授 ， 硕 士 ， 主 要 研究 方向 为 软件 工程 .大 数据 ; 王 宝 英 (1992-) ， 女 (通信 作者 ) ， 江 西 上 饶 人 
硕士 ， 主 要 研究 方向 为 大 数据 〈403247067@qq.com) ; 陈 英 (1982-) ， 男 ， 副 教授 ， 博 士 ， 主 要 研究 方向 为 软件 工程 .模式 匹配 ; 汉 涛 (1993-) ， 男 ， 江 西 
赣州 人 ， 硕 士 ， 主 要 研究 方向 为 大 数据 ; 陈涛 蔷 (1993-) ， 男 ， 江 西 应 潭 人 人， 硕士， 主要 研究 方向 为 大 数据 . 


201804.01451v1 


chinaXiv 


录用 稿 


模型 对 北京 市 中 关 村 高 新 科技 园 总 收入 进行 预测 ， 实 验 结果 表 
明 四 种 给 予 神经 网 络 的 预测 模型 均 适用 于 景气 预测 。2017 年 
Asencio-Cortés 等 人 19 使 用 从 文献 中 得 到 的 地 震 指 标 ， 基 于 神 
经 网 络 构建 预测 模型 , 对 东京 2015 年 高 于 5 级 、 时 间 跨 度 大 于 
7 天 的 地 震 进 行 预测 ， 实 验 结果 表明 该 方法 有 效 。 

KNN 算法 是 模式 识别 的 一 种 ,适用 于 非 线 性 序列 数据 。 算 
法 核心 是 数据 间 的 依赖 性 : 如果 训 练 数据 与 查询 数据 相近 【该 
训练 数据 称 为 查询 数据 的 相近 邻 ) ， 则 认为 相近 邻 的 预测 数据 
与 该 查询 数据 的 预测 数据 相近 ， 即 若 查询 数据 相近 ， 则 预测 数 
据 也 相近 ， 相 近 程 度 越 高 则 相似 度 越 大 。 为 确保 预测 数据 不 因 
某 个 特殊 点 而 造成 极 大 误差 , 选用 K 个 最 近邻 来 获得 最 终 的 预 
测 结果 。 到 目前 为 止 ，KNN 算法 已 成 功 应 用 于 多 个 领域 。 
2014 年 ， Zheng 等 人 0 用 KNN 算法 进行 短期 车 流量 预 
测 ， 实 验 结 果 表 明 该 算法 适用 于 各 地 复杂 的 车 流量 预测 。2017 
年 , Oliveira 等 人 (3 用 KNN 算法 预测 短期 用 水 需求 , 在 训练 数 
据 较 多 的 情况 下 ， 该 算法 取得 了 较 好 的 结果 。AQI 序列 数据 与 
车 流量 及 用 水 需求 量 一 样 均 为 非 线性 序列 数据 ， 且 经 观察 空气 
般 空 气质 量 较 好 的 规律 ， 

上 


lh 


质量 有 春 冬 采 暖 季 污 染 严 重 、 夏 天 
数据 间 有 具有 局 部 相似 性 和 依赖 性 。 故 而 选择 KNN 算法 应 用 
AQI 预测 。 
KNN 算法 总 共 分 为 以 下 四 个 步 又。 
a) 选 取 n 组 查询 数据 X; 。 
成 = 人 0 (1) 


b) 在 训练 数据 中 依次 选取 n 组 训练 数据 *; 


X; ={x,x 


这 9 


x i Q2) 


2 


9 计算 X 和 Xi) 之 间 的 欧 氏 距离 dis 。 
ds= ZX) G) 


dj) 选择 欧式 距离 最 小 的 组 数据 ， 加 入 权重 ,计算 得 到 预 
测 值 。 


2 ”本 文 提出 的 方法 


2.1 风力 因素 的 影响 

风 对 空气 质量 有 很 大 的 影响 ， 风 能 将 污染 物 吹 散 或 带 离 某 

个 地 区 ， 能 带 走 多 少 污染 物 或 带 来 多 少 污染 物 取决 于 风力 的 大 

影响 的 是 风 将 污染 物 带 向 哪个 方向 或 从 哪个 方向 带 

来 。 考 虑 污染 一 般 在 城市 出 现 ， 城 市 与 城市 之 间 的 地 区 产生 污 
染 丘 
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日 风 对 当日 AQI 值 的 影响 。 
2.2 算法 步骤 

1) 选 取 K 近邻 

Q@ 初 始 化 两 个 长 度 为 的 数组 ， 其 中 一 个 数组 存放 个 最 
小 的 欧 氏 距离 ， 数 组 为 dis[k] ， 且 该 数组 按 升序 排序 。 数 组 中 
最 后 保留 的 最 小 欧式 距离 一 般 在 100 左右 ， 故 先 将 数组 中 的 每 
个 值 初始 化 为 9999， 对 最 终结 果 不 会 产生 任何 影响 ， 
dis[k] ={9999,9999,9999,…,9999,9999,9999} ; 男 一 个 数组 存放 
对 应 于 欧式 距离 最 小 的 训练 数据 的 日 期 即 ， 数 组 为 flag[] 。 

回 选 预测 数据 前 n 天 数据 作为 的 查询 数据 X; ， 
X, i 2 

@ 在 该 指定 日 期 AQI 预测 实验 过 程 中 , 若是 第 一 次 获取 训 
练 数 据 ， 则 执行 第 @ 步 ， 否 则 ， 执 行 第 @ 步 。 
从 训练 数据 第 一 条 数据 起 依次 获取 连续 n 天 AQI 数据 作 


x re 


一 


为 xX) » X， = {x o 


@@ 从 训练 数据 指定 数据 起 依次 获取 连续 n 天 AQI 数据 作为 


Xx X) = ° 


了 9 


@@ 计 算 X 和 X, 之 间 的 欧 氏 距离 dis ，dis= 人 (X-X) 。 


分 别 比较 ds 与 dis[k] 中 每 个 数 的 大 小 ， 车 dis < dis[i] ， 
即 X; 和 XX; 之 间 的 欧式 距离 小 于 或 等 于 dis[k] 中 的 某 个 数 ， 则 
将 dis[#] 中 欧 氏 距离 最 大 的 数据 删除 并 将 dis 插入 到 相应 位 置 
与 此 同时 ， 更 新 dis[k] 数 组 相应 位 置 的 值 。 

@ 据 欧 氏 距离 最 小 的 个 值 dis[#] 和 训练 数据 对 应 日 期 
flag [x] ， 取 得 相应 的 天 个 预测 AQI 值 FAQI[K] 作为 预测 值 的 
K 近邻 。 

2) 加 入 权重 

@ 训 练 数据 日 期 往 后 移 一 天 , 若 仍 可 依次 获取 n 条 AQI 数 
据 ， 则 跳 转 至 第 @ 步 ， 否则， 本 次 指定 日 期 的 AQI 预测 筛选 过 
程 结束 ， 跳 转 至 第 @ 步 。 

图 在 玉 近 邻 中 加 入 权重 ( 欧 氏 距离 越 小 ， 权 重 越 大 )。 大 组 
欧 氏 距离 之 和 为 Dis = > .dis ,每 组 欧 氏 距离 最 小 的 值 相应 的 预 
测 值 分 别 为 ECI[I 。 则 加 权 AQI 预测 值 计算 公式 如 下 : 
Dis— FAQI[] 


一 1 水 
AOI Fao -TsDiy © 

QD 车 测试 数据 均 预测 完毕 ， 则 实验 步骤 结束 ; 否则 预测 日 
期 往 后 移 一 天 ， 并 跳 转 至 第 四 步 。 


的 可 能 性 很 小 ， 故 风 对 城市 空气 质量 产生 的 影响 一 般 是 将 污 
染 物 带 离 城市 ， 将 城市 周边 质量 较 好 的 空气 带 到 城市 ， 且 风向 
对 空气 质量 的 影响 还 需 结合 各 城市 周边 山脉 等 环境 。 影 响 小 且 
情况 复杂 ， 故 本 方法 不 考虑 风向 对 空气 质量 的 影响 ， 只 考虑 风 
力 对 空气 质量 的 影响 。 且 考虑 到 AQI 变化 的 原因 有 多 种 ， 而 风 
对 AQI 造成 的 影响 一 般 是 下 降 ， 若 上 升 则 考虑 为 其 他 因素 ， 本 
方法 不 考虑 其 他 因素 ， 故 只 考虑 AQI 下 降 情况 ,将 后 一 天 AQI 
值 与 当前 AQI 值 的 差 值 作为 当前 风力 对 AQI 的 影响 ， 忽 略 当 


3) 考 虑 风力 因素 的 AQI 预测 值 

@O 计 算 下 一 天 AQI 值 4Q1,, 与 当前 AQI 值 4C1 的 差 什 
忆 作为 当天 风力 对 下 一 天 AQI 的 影响 。 
D = AOQ!I,,,—AOI, (5) 

(3 第 选 指 定 风力 值 * 下 差 值 为 负 即 D, <0 的 值 Di ,计算 
差 值 对 应 当天 实际 AQI 的 百分比 dd, , 即 当前 风力 对 当天 AQI 
所 造成 的 影响 。 
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Dna 城市 2017 年 8 月 AQI 进行 预测 ， 实 验 结果 如 表 2 所 示 。 在 
d,, = 一 和 x100% (6) 
4O1 大 =7 时 效果 较 好 ， 故 取 上 =7 。 
的 计算 该 风力 下 严 组 心 : 对 AQI 所 造成 影响 的 平均 值 4 。 表 1 不同 查询 天 数 m 所 得 预测 结果 的 平均 绝对 值 误差 
d, = (7) 城市 ”n=3 n=4 n=5 n=6 n=7 n=8 n=9 n=10 
m 


南昌 0.251 0.238 0.245 0.254 0.258 0.257 0.267 0.264 
和 国有 得 所 曙 、 得 疆 四 
名 使 用 计算 所 得 的 风力 影响 值 对 KNN 预测 所 得 结果 武汉 0.387 0.354 0.304 0.353 0.339 0.358 0.371 0.340 


A401, 进行 修正 ,根据 测试 数据 上 一 天 的 风力 值 引入 风力 影响 西安 0.342 0.293 0.300 0.326 0.306 0.318 0.342 0.313 
值 ， 得 到 修正 后 的 AQI 值 AQ1, 。 


A = A (lad,) (8) 表 2 不 同 K 近邻 个 数 所 得 预测 结果 的 平均 绝对 值 误差 
2.3 实验 城市 3 4 5 6 7 8 9 10 
1) 实 验 数据 来 源 及 划分 南昌 0.266 0.276 0.251 0255 0.244 0.245 0.241 0.234 
实验 中 所 用 到 的 实验 数据 均 从 网 站 "天气 后 武汉 0312 0309 0304 0327 0330 0328 0325 0319 
报 ”(http:/wwwtianqihoubao.com/aqi/) 取 得 。 由 于 本 算法 是 一 种 西安 0.296 0.305 0.300 0.303 0.307 0.306 0.298 0.296 
具有 普遍 性 的 算法 ， 故 共 取 全 国 东西 南北 中 各 地 九 个 重点 城市 
的 天 气 数据 作为 研究 对 象 , 包括 日 期 、 AQI、 风 力 等 数据 ; 九 个 4) 实 验 结果 评估 方法 
城市 分 别 为 : 北京 、 西 安 、 人 合肥、 南昌、 南京、 上海、 武汉 、 对 只 使 用 KNN 方法 预测 得 到 的 AQI 值 4C1 以 及 考虑 风 
长 沙 、 郑州。 各 城市 所 获取 数据 均 从 2013-10-28 至 2017-12-31， 力作 用 后 得 到 的 AQI 值 4C1, 进行 评估 。 分 别 计算 4C1 和 
共 1526 条 数据 ， 分 为 训练 数据 和 测试 数据 两 个 部 分 。 其 中 ， AQ1 与 当天 实际 AQI 值 AQ1, 的 绝对 误差 巨 和 ,以 及 E 和 
2013-10-28 至 2016-12-31 的 1161 条 数据 作为 训练 数据 ，2017- Ei 的 平均 值 MAE, 和 MAE : 
1-1 至 2017-12-31 的 365 条 数据 作为 测试 数据 。 1427 - AQ1,| 
E= < "100% (9) 
2) 实 验 数据 预 处 理 42/， 
在 “天 气 后 报 ” 中 获取 的 数据 中 ， 有 一 部 分 数据 的 AQI 信息 站 1400 - AQL,| x100% ao 
缺失 ， 故 而 需要 对 其 进行 预 处 理 。 且 在 风力 数据 中 ， 风 力 信息 4CO1， 
种 类 繁多 ， 也 需要 对 风力 数据 进行 预 处 理 。 MAE, = 25, (GD 
QO 缺失 数据 MAE, = >, (12) 


将 所 有 缺失 数据 的 AQI 均 设 为 9999， 以 保证 包含 该 天 数 


3 ”实验 结 
据 的 欧 氏 距离 计算 所 得 到 的 数值 足够 大 ， 故 而 包含 该 天 的 数据 人 


不 会 被 选中 作为 查询 数据 的 及 近邻 。 3.1 实验 结果 

如 风力 数据 1) 三 个 典型 城市 实际 AQI 和 两 次 预测 结果 对 比 

选取 进行 研究 的 九 个 城市 对 象 中 ， 风 力 因 素 最 小 的 均 为 3 本 文 实验 首先 选取 中 、 西 、 北 三 个 方位 各 一 个 典型 城市 作 
级 ,故而 3 级 风 不 予 考虑 对 AQI 的 影响 ， 从 3 级 以 上 风 开 始 考 ”为 实验 对 象 。 图 1 一 3 是 三 个 典型 城市 2017 年 实际 AQI 值 、 预 


虑 。 不 考虑 风向 因素 ， 只 考虑 风力 等 级 因素 ， 将 风力 因素 数字 ” 测 AQI 值 以 及 引入 风力 后 预测 AQI 值 之 间 的 对 比 效果 。 每 张 
等 级 化 ， 数 字 化 方式 : 中 若 风力 等 级 为 3， 则 直接 数字 化 为 3; 图 显示 三 个 月 的 数据 ;图 4 是 三 个 典型 城市 2017 年 8 月 有 风 
若 风 力 等 级 为 3-4， 则 直接 数字 化 为 3.5; 以 此 类 推 。 包 在 风力 气 实际 AIQ、KNN 预测 AQI 和 本 文 算法 预测 AQI 的 对 比 簇 
数据 数字 化 过 程 中 ， 若 包含 两 种 等 级 的 风力 ， 则 直接 将 风力 等 ”” 状 柱 形 图 。 由 图 1 一 4 可 知 , 虽然 有 部 分 有 风 天 气 引 入 风力 因素 
级 高 的 数字 化 。 后 预测 AQI 不 如 KNN 预测 AQI 准确 , 但 影响 较 小 ， 整 体 效 果 


3) 算 法 参数 设置 上 看 ， 引 入 风力 因素 对 AQI 预测 具有 积极 作用 。 

本 算法 需要 确定 两 个 参数 ， 分 别 是 查询 数据 个 数 n 和 最 近 2) 风力 因素 对 AQI 预测 的 影响 
邻 的 个 数 在 九 个 实验 城市 中 随机 选取 三 个 城市 (选取 城市 为 : 如 表 3 所 示 ， 是 风力 因素 对 九 个 城市 2017 年 AQI 预测 的 
南昌 、 武 汉 和 西安 )。Q@ 根 据 不 同 的 查询 天 数 n(ne[3,10]) 分 别 。 ”准确 率 的 影响 。 如 图 5(a) 所 示 ， 是 九 个 城市 引入 风力 因素 前 后 


对 三 个 城市 2017 年 8 月 AQI 进行 预测 ,实验 结果 如 表 1 所 示 。 对 有 风 天 气 AQI 预测 的 误差 对 比 簇 状 柱 形 图 ; (b) 是 九 个 城市 
查询 天 数 n=5 时 ， 三 个 城市 的 平均 误差 均 最 小 ， 故 取 n=5 。 引入 风力 因素 前 后 对 整 月 AQI 预测 的 误差 对 比 簇 状 柱 形 图 。 由 
@ 根 据 相关 研究 ，K 近邻 的 个 数 ke[30,60] 时 ， 预 测 效 果 最 好 ”” 表 3 和 图 5 可 知 ， 引 入 风力 因素 后 ,每 个 城市 的 AQI 预测 准确 
03， 但 该 理论 建立 在 数据 量 达 10000 的 基础 上 。 由 于 实验 数据 。” 率 均 得 到 提升 合肥、 南京 准确 率 提升 幅度 最 大 ,分 别 达 到 18.75% 
有 限 ， 只 有 1000 条 , 值 过 大 ， 反 而 会 影响 预测 效果 ， 故 本 算 ”和 12.50%， 提 升 效果 最 为 明显 ; 预测 效果 也 最 为 明显 。 西 安 、 
法 取 ke[3,10] 。 根据 不 同 的 K 近邻 个 数 (ke[3,10]) 分 别 对 三 个 ” 武汉 和 南昌 提升 幅度 不 明显 ， 但 这 三 个 城市 本 身 预 测 效果 已 经 
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很 好 ， 有 风 天 数 少 ， 准 确 率 提升 幅度 虽 不 明显 ， 但 总 体 预测 效 
果 很 好 。 郑 州 、 长 沙 和 上 海 准确 率 提升 效果 较 好 ， 这 三 个 城市 
本 身 KNN 预测 效果 不 差 ， 故 而 引入 风力 因素 后 AQI 预测 效果 
较 好 。 北京 KNN 预测 效果 较 差 ,预测 准确 率 提升 效果 一 般 , 仅 


5.88%， 故 预测 效果 不 理想 。 
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北京 2017-01 一 2017-03 


Ry 


I 


—— AFM 
Be 
一 一 内力 加 未 芒 测 hl 


Re 
ee gi 
EE 
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(b) 西 安 AQI 预测 对 比 图 2017-04 一 2017-06 


(b) 北 京 AQI 预测 对 比 图 2017-04 一 2017-06 


北京 2017.07 一 2017-09 


一 了 AI 
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一 一 民力 因 求 仿 AQI 
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(c) 西 安 AQI 预测 对 比 图 2017-07 一 2017-09 


(9) 北 京 AQI 预测 对 比 图 2017-07 一 2017-09 


| 一 ji40I 
北京 2017-10 一 2017-12 So 


一 到 力 因 天 Ac 


—— hl 
西安 2017-10 一 2017-12 on 
—— mh 


(gd) 西安 AQI 预测 对 比 图 2017-10 一 2017-12 


(gd) 北京 AQI 预测 对 比 图 2017-10 一 2017-12 


线 对 比 


图 1 北京 2017 年 实际 AQI、KNN 预测 AQI 和 风力 因素 预测 AQI 折 


图 2 西安 2017 年 实际 AQI、KNN 预测 AQI 和 风力 因素 预测 AQI 折 
线 对 比 
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员 
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日 其 
(a) 合 肥 AQI 预测 对 比 图 2017-01 一 2017-03 (a) 北 京 有 风 天 气 的 AQI 预测 对 比 
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合肥 2017-07 一 2017-09 ~ KFA 
10 一 一 风力 因 守 访 和 A 
西安 乡 KNNIR 和 MAQI 
六 实际 AQl 
120.00 = 于 风力 因素 预测 AQI 
人 
赴 N 公 
加 10000 和 全 一 
9 vv 公公 SS 
所 ”80.00 - 公 一 公 一 公 = 乡 
公 公 A >。 ;站 
\ 和 公会 Ss 从 乡 
人 估 从 会 人 人 
NE 和 三 ZN 
2000 A A 从 从 公公 
» 双 从 公 人 公公 
ap11 200717 2007h5 30171a3 2017122017 忆 5 230171312 3978fig 2017a126 107/ 2017/3 320476 2017/23 391 0.00 SB 人 全 公公 公 
EL 
ap 人 vbv od 
RC RR RS 
SE Sd Sd sd edt 
(oc) 合肥 AQI 预测 对 比 图 2017-07 一 2017-09 PP 
日 期 
—— 2 
合肥 2017-10 一 2017-12 一 NTFIAal 
一 一 风力 因 系 态 而 4 


(c) 西 安 有 风 天 气 的 AQI 预测 对 比 
图 4 三 个 典型 城市 有 风 天 气 实际 AQI、KNN 预测 AQI 及 风力 因素 
预测 AQI 对 比 


表 3 风力 因素 对 AQI 预测 准确 率 的 影响 


” 有 风 天 提升 准确 降低 准确 KNN 预 风力 因素 准确 率 提升 
数 ” 率 天 数 。” 率 天数 ” 测 误差 预测 误差 ”百分比 


(qd) 合 肥 AQI 预测 对 比 图 2017-10 一 2017-12 北京 ”107 58 75 0.51 0.48 5.88% 

图 3 合肥 2017 年 实际 AQI、KNN 预测 AQI 和 合肥 192 98 94 0.32 0.26 18.75% 
风力 因素 预测 AQI 折线 对 比 西安 38 21 17 0.30 0.29 3.33% 

昌 62 29 33 0.31 0.29 6.45% 

南京 ”345 148 197 0.32 0.28 12.50% 

上 海 ”115 61 54 0.33 0.31 6.06% 

武汉 35 21 14 0.30 0.29 3.33% 

长 沙 79 45 34 0.35 0.32 8.57% 


郑州 ”107 52 35 0.33 0.30 10.00% 
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风力 因素 对 有 风 天 气 AQI 预 测 误差 的 影响 。、 引 入 风力 前 
引入 风力 后 
NL 
05 加 区 N 
04 一 一 一 一 一 N SN AN N 
员 0s XZ NN NN 
NN NW NN VN NA NS NY 
NI NZ NS SN NS NS NS NY NO 
"SN YS SS SSS 
NS NA NS NZ NGS NS NS NS NS 
"GSSYYYYSSS 
oN NA NG NA NZ NA NZ NA NZ 
北京 ”西安 合肥 南昌 南京 上 海 ” 武 妈 长沙 郑州 
城市 
(a) 风 力 因素 对 有 风 天 气 AQI 预测 的 影响 
风力 因素 对 2017 年 AQI 预 测 误差 的 影响 引入 风力 前 
引入 风力 后 
050 —N 
NZ 
0.40 NS 
NN 
NS N SS NA 
0.30 AT NS S- TD AT 
0.20 
NA NI NA NA NA NA SI NA NY 
NI NA NY NA MA NS NO NS NA 
SS 
0 -NING NI NA NI NI NI NI 一 NG 
SA OO RN SYS NY 
NZ NN NU NO NS ON NN 
ow XZ NZ NZ NZ NZ NZ NZ NG 
北京 西安 合肥 南昌 南京 上 海 武 只 长 沙 郑州 
城市 
(b) 风 力 因素 对 有 总 体 AQI 预测 影响 
图 5 风力 因素 对 有 风 天 气 和 总 体 AQI 预测 效果 的 影响 


3) 误差 分 布 情况 


如 图 6 所 示 , 是 本 文 算法 对 九 个 城市 共 
{ 279 条 数据 中 ， 


的 误差 分 布 图 


。 在 十 个 城市 


测 AQI 误差 中 ， 


44.62%， 随 着 


比 7%，。 但 是 在 [1.0,+%) 


绝对 误差 在 [0,0.2) 区 间 


误差 增 大 ， 天 数 逐 渐 减少 ， 


[0.6,1.0) 
区 间 ， 占 比 又 高 达 3.93%。 本 算法 对 
城市 AQI 的 预测 总 体 效 果 很 好 , 但 也 存在 部 分 数据 预测 很 不 准 


279 天 AQI 预测 后 
引入 风力 后 的 预 
的 天 数 最 多 ， 占 比 
区 间 ， 总 占 


129 


= 上 
[ee 


7-08 08-09 09-10 >10 


部 相似 性 和 依 


一 考虑 数据 间 的 关 


确 。 
九 个 城市 3285 天 误差 分 布 
” | | | | 
03 0304 0.4-05 | 0.6-0.7 
图 6 九 个 城市 3285 天 误差 分 布 
3.2 原因 分 析 
本 文 提 出 的 方法 只 考虑 数据 与 数据 之 间 的 局 
赖 性 及 简单 的 风力 因素 ， 实际 上 AQI 值 受 到 天 气 变 化 、 污染 物 
排放 以 及 城市 周边 环境 等 多 种 因素 影响 。 身 
系 以 及 简单 的 风力 因素 ， 无 法 完美 解决 AQI 复杂 的 成 因 问 题 ， 
故而 存在 一 定 误差 。 


突变 点 


处 理 


无 法 


趋势 ， 且 前 
下 降 ， 但 实际 AIQ 值 反 而 上 升 ; 或 者 存在 一 列 数据 前 几 天 的 
AQI 值 呈 上 升 趋势 ， 且 
上 升 ， 但 实际 AQI 值 反而 下 降 ， 这 样 的 点 称 之 为 突变 点 。 
上 


| ChinaXiv 合 人 
杨 丰 玉 ， 等 : 一 种 考虑 风力 作用 的 KNN 城市 AI 
在 AQI 数据 中 ， 存 在 一 系列 数据 ， 前 几 天 的 AQI 呈 下 降 


天 有 风 。 该 种 情况 下 ， 该 天 AQI 值 较 前 一 天 应 该 


前 一 天 无 风 ， 该 天 AQI 值 较 前 一 天 应 该 
突变 
般 是 因为 受到 其 他 因素 的 影响 ， 可 能 是 天 气 的 变化 ， 也 可 


污染 物 排放 的 变化 ， 但 是 本 文 提出 的 方法 只 是 简单 考虑 了 风 


力 


因素 ， 对 其 他 因素 产生 的 影响 无 法 进行 量化 。 
@@ 数 据 有 限 
在 “天 气 后 报 ” 网 站 上 获取 


一 个 城市 的 历史 AQI 值 只 有 1 


500 条 , 本 文 提 出 的 引入 风力 因素 的 KNN 算法 主要 依赖 的 是 数 


据 


的 


4 


法 » 


郑 


间 相 似 性 和 依赖 性 ， 数 据 量 不 够 大 的 情况 下 ， 筛 选 得 到 的 最 
邻 的 预测 AQI 值 可 能 会 有 极 大 的 偶然 性 误差 , 从 而 造成 最 终 
预测 结果 不 够 理想 ， 如 北京 市 。 


结束 语 


本 文 在 KNN 算法 的 基础 上 , 提出 引入 风力 因素 的 KNN 算 
对 北京 、 西 安 、 合 肥 、 南 昌 、 南 京 、 上 海 、 武 汉 、 长 沙 、 
州 九 个 重点 城市 的 AQI 进行 预测 ， 预 测 结 果 表明 九 个 城市 


KNN 算法 预测 的 AQI 在 引入 风力 因素 后 与 实际 AQI 的 误差 均 


下 


AQI 变化 原因 复杂 ， 需 要 考虑 的 因素 很 多 ， 且 数据 有 限 ， 
AQI 值 的 偶然 怕 


城 
考 
市 


本 文 提 


出 的 方法 主要 依赖 数据 间 的 相似 性 和 依赖 性 ， 但 


E 误 差 较 大 ， 故 部 分 城市 预测 结果 理想 ， 
市 预测 结果 不 是 很 理想 。 在 未 来 的 研究 里 ， 将 致力 于 多 方位 
虑 AQI 变 化 的 原因 ， 使 用 深度 学 习 或 深度 学 习 等 方法 ， 对 城 
AQI 进行 预测 ， 以 期 获得 更 好 的 预测 结果 。 
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